KiaDev Intelligence

#агентное обучение с подкреплением30.08.2025

rStar2-Agent: как 14B модель с агентным RL обходит более крупные модели в математике

'Модель rStar2-Agent использует исполнение Python-кода в цикле рассуждений, что позволяет 14-миллиардной модели обойти более крупные системы на математических бенчмарках.'

ЧИТАТЬ →